I. Ozkan
Mart, 2023
Anahtar Kelimeler:
Girdiler (Inputs): Bağımsız Değişkenler (independent variables), Birlikte Değişenler (covariates), Açıklarıcı Değikenler (predictors, features, regressors).
Çıktı (Output): Bağımlı Değişken (dependent variable, variates, labels, regressand).
Y bağımlı ve \(X_1, X_2,\cdots,X_p\), \(p\) bağımsız farklı açıklayıcı değişkenler olsun.
\(Y\) ve \(X = (X_1, X_2,...,X_p)\) arasında bir ilişki olduğunu varsayalım:
\(Y=f(X)+\varepsilon\)
\(Y=f(X)+\varepsilon=Örüntü(Pattern)+Hata(Error)\)
Niçin \(f()\) fonksiyonu tahmin edilecek
\(f()\) nasıl tahmin edilecek
Tahmin Doğruluğu (Prediction Accuracy) ve model yorumlanabilirliliği (interpretability) ne olmalı
Danışımlı/Danıışımsız (Supervised vs Unsupervised Learning)
Regresyon/Sınıflama amaçlı (Regressyon vs Classification)
\(X=(X_1, X_2, \cdots,X_p)\) gözlemlenmiş ama \(Y\) gözlemlenmemiş olabilir. Tahmin etmek:
\(\hat Y=\hat f(X)\) çünkü \(E(\varepsilon)=0\)
\(\hat f()\)belki (kara kutu, black box) modeli olabilir. Bu durumda fonksiyonun tam yapısı önemli olmayacak, \(Y\) için tahmin gücü önemli olacaktır
İndirgenebilir/azaltılabilir (Reducible, \(\hat f()\) doğru \(f\) fonksiyonunun mükemmel tahmincisi olmaz) ve indirgenemez/azaltılamaz (irreducible) hata terimi (\(\hat f()\) neredeyse mükemmel \(f\) tahmincisi ancak, \(Y\) \(\varepsilon\)’nin fonksiyonu)
\(Y\) için Gerçek ve tahmin değerlerinin farklarının karelerinin beklenen değeri
\(E(Y-\hat Y)^2=E[f(X)+\varepsilon -\hat f(X)]^2\)
\(=\underbrace{[f(X) -\hat f(X)]^2}_{indirgenebilir} +\underbrace{Var(\varepsilon)}_{indirgenemez}\)
\(\varepsilon\); (i) ölçülmemiş değişkenleri and (ii) ölçülemez değişkenliği içerebilir
Odak, azaltılabilir hatanın farklı yöntemler/teknikler yolu ile minimize edilerek \(\hat f()\) tahmin edilmesidir
Ana hedef \(X\) ve \(Y\) arasındaki ilişkinin analiz edilmesi olabilir. Bazen tahmin etmek ana hedef olmayabilir.
\(\hat f()\) yorumlanabilir olarak seçilmelidir (interpretable).
Sorular:
Bağımlı değişkenle ilişkili açıklayıcılar hangileridir?
Bağımlı değişken ile her bir açıklayıcı değişkenin arasındaki ilişki nasıldır?
İlişkiler karmaşık mı, basit midir?
TV | radio | newspaper | sales |
---|---|---|---|
230.1 | 37.8 | 69.2 | 22.1 |
44.5 | 39.3 | 45.1 | 10.4 |
17.2 | 45.9 | 69.3 | 9.3 |
151.5 | 41.3 | 58.5 | 18.5 |
180.8 | 10.8 | 58.4 | 12.9 |
8.7 | 48.9 | 75.0 | 7.2 |
– Hangi reklam medyası satışlara etki ediyor?
– En yüksek satışı artıran reklam medyası hangisi?
– TV reklamlarında bir artışa gitsek satışlarda ne kadar artış beklenebilir?
Bu derste, lineer (ve vakit bulursak lineer olmayan) yaklaşımlara öncelik vereceğiz.
Parametrik yöntemler (\(f()\) parametreler tahmin edilerek elde edilecek):
Aşağıdaki figürde, gelir, income, eğitim, education, ve kıdem, seniority ilişkileri verileri ve aralarındaki gerçek ilişki gösterilmektedir:
Parametrik bir yönteme örnek olarak lineer bir fonksiyon düşünülebilir,
\[income=\beta_0 + \beta_1 \times education + \beta_2 \times seniority\]
Fonksiyonu tahmin ettiğimizde:
Aşağıda bir parametrik olmayan yolla elde edilmiş \(f()\) fonksiyonu gösterilmektedir (Spline kullanılarak):
Bazı modeller diğerlerine göre düşük veya yüksek esnekliğe sahip olabilirler
Örneğin, Lineer Regresyon daha düşük esnekliğe sahip bir model örneğidir
Spline modelleri daha esnektirler
Lasso, Ridge regresyonları düşük esnekliğe sahip diğer modellere, Ağaçlar Trees, Bagging, Boosting daha yüksek esnekliğe sahip modellere örneklerdir
Eğer amaç çıkarım/anlam çıkarımı ise daha düşük esnekliğe sahip modellerin açık bir avantajı vardır. Daha düşük esnek modelleri anlamak daha kolaydır
Zaman zaman, Kısmi Lineer Modeller (Partially linear models) çıkarım için kullanılabilir. Buradaki amaç doğrusal olmayan ilişkilere sahip değişkenlerin kontrollerinin daha doğru yapılmasıdır ve doğrusal ilişkiye sahip değişken(ler)in etkilerinin analizi temel hedeftir
Birçok öğrenme problemi
Standard klasik istatistiksel öğrenme yöntemleri genellikle Supervised Learning örneğidir (çünkü \(Y \: ve \: X_i\) gözlemlenmiştir)
Unsupervised Learning daha çaba gerektirici durumdur (çünkü \(X_i\) gözlemlenmiş ancak bağımlı değişken \(Y\) elimizde yoktur)
Kümeleme Analizleri (Clustering Analysis) Unsupervised learning yaklaşımı için bir örnektir
Bazı bağımlı değişkenler Kategorik, Kalitatif/Nitel (Categorical, qualitative) ve bazı deişkenler Nümerik (Numerical, quantitative) olabilir
Kalitatif değişkenler farklı kategorilere gelen değerler alabilirler (zaman zaman farklı sınıflar (classes)) olarak adlandırılırlar, örneğin, temerrüde düşme/düşmeme; kanser/kanser değil gibi
Regresyon Problemi ifadesi bağımlı değişken nümerik/kantitatif olduğunda kullanılır
Sınıflama (Classification) Problemi bağımlı değişken kalitatif olduğunda kullanılır
Bazı metodlar hem kalitatif hem de kantitatif problemlerde kullanılabilirler (Trees, Boosting metodları örnek olarak verilebilir)
Sol: Siyah doğru model, diğerleri, Lineer model ve iki spline modeli
Sağ, 1.0: bu modeller ile elde edilebilecek en düşük test performası, Gri: Training Verisi ile Modellerin Performansları, Kırmızı: Test verileri ile modellerin performansları
Sapma, oldukça karmaşık olabilecek gerçek hayat problemlerine basit modeller yolu ile yaklaşmak/andırmak (approximate) için ortaya çıkacak hatayı ifade etmektedir
Genel olarak, daha esnek modeller kullandığımızda değişkenlik artacak ancak sapma azalacaktır
İstatistiksel öğrenme metodu düşük varyans ve aynı zamanda düşük sapma gerektirir
Modelin performans analizleri model değerlendirmesi olarak adlandırılır
Model esnekliğinin seçilmesi ise model seçimi olarak adlandırılır
En çok kullanılan örnekleme yöntemleri arasında